是用於分類和迴歸任務,一系列的規則和條件來對資料進行分類或預測
資訊增益是衡量在某個特徵的基礎上,將資料集切割成不同類別的純度或不確定性減少的程度
IG:資訊增益
Entropy(S):原始資料集 S 的熵(Entropy)或不確定性
熵的公式
n:特徵可能的分割數
|S|:原始資料集 S 的大小
∣Si∣:特徵 i 的分割後的子集小
Entropy(Si):特徵 i 分割後子集的熵
基尼不純度從一個節點中隨機選取一個樣本,它被錯誤分類的概率,衡量資料集的不純度或混亂程度
Gini Impurity(S):資料集 S 的基尼不純度
c:類別的數量
pi:類別 i 在資料集 S 中的比例
基尼不純度的值範圍在 0 到 1 之間
基尼不純度越低,表示資料集中的混亂程度越低,反之亦然